Text copied to clipboard!
Título
Text copied to clipboard!Engenheiro de Confiabilidade de Site (SRE)
Descrição
Text copied to clipboard!
Estamos à procura de um Engenheiro de Confiabilidade de Site (SRE) altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir a estabilidade, escalabilidade e desempenho de nossos sistemas e serviços digitais. O SRE atuará como ponte entre desenvolvimento e operações, promovendo práticas de engenharia para melhorar a confiabilidade e eficiência dos sistemas em produção.
O candidato ideal terá experiência com ambientes de produção em larga escala, automação de processos, monitoramento de sistemas e resposta a incidentes. Espera-se que o profissional colabore com equipes de desenvolvimento para implementar soluções resilientes, além de criar ferramentas e processos que reduzam o trabalho manual e aumentem a eficiência operacional.
Entre as principais responsabilidades estão a criação e manutenção de pipelines de CI/CD, desenvolvimento de scripts de automação, configuração de alertas e dashboards de monitoramento, além de participar de análises pós-incidente para identificar causas raiz e propor melhorias. O SRE também será responsável por definir e acompanhar métricas de confiabilidade como SLOs, SLIs e SLAs.
Além disso, o profissional deverá ter uma mentalidade proativa, buscando constantemente formas de melhorar a infraestrutura e os processos existentes. A capacidade de trabalhar em equipe, comunicar-se de forma clara e resolver problemas complexos sob pressão são habilidades essenciais para o sucesso nesta função.
Se você é apaixonado por tecnologia, tem espírito colaborativo e deseja trabalhar em um ambiente dinâmico e inovador, esta é a oportunidade ideal para você.
Responsabilidades
Text copied to clipboard!- Garantir a disponibilidade e confiabilidade dos sistemas em produção
- Desenvolver e manter pipelines de integração e entrega contínua (CI/CD)
- Automatizar tarefas operacionais e processos repetitivos
- Monitorar sistemas e configurar alertas proativos
- Responder a incidentes e realizar análises pós-morte
- Colaborar com equipes de desenvolvimento para melhorar a resiliência dos sistemas
- Definir e acompanhar métricas como SLOs, SLIs e SLAs
- Documentar processos e procedimentos operacionais
- Participar de revisões de arquitetura e planejamento de capacidade
- Implementar práticas de segurança e conformidade em ambientes de produção
Requisitos
Text copied to clipboard!- Formação superior em Ciência da Computação, Engenharia ou áreas relacionadas
- Experiência com sistemas distribuídos e ambientes de produção em larga escala
- Conhecimento em linguagens de script como Python, Bash ou Go
- Familiaridade com ferramentas de automação como Ansible, Terraform ou Puppet
- Experiência com plataformas de nuvem como AWS, GCP ou Azure
- Conhecimento em containers e orquestração (Docker, Kubernetes)
- Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
- Capacidade de resolver problemas complexos sob pressão
- Boa comunicação e trabalho em equipe
- Inglês técnico para leitura e escrita
Perguntas potenciais de entrevista
Text copied to clipboard!- Você possui experiência com ambientes de produção em nuvem?
- Quais ferramentas de automação você já utilizou?
- Como você lida com incidentes em produção?
- Você já trabalhou com métricas como SLOs e SLIs?
- Tem experiência com containers e Kubernetes?
- Como você colabora com equipes de desenvolvimento?
- Já participou de análises pós-incidente? Como foi sua contribuição?
- Quais linguagens de script você domina?
- Como você garante a segurança em ambientes de produção?
- Você já implementou pipelines de CI/CD? Quais ferramentas utilizou?